We present the Verifee Dataset: a novel dataset of news articles with fine-grained trustworthiness annotations. We develop a detailed methodology that assesses the texts based on their parameters encompassing editorial transparency, journalist conventions, and objective reporting while penalizing manipulative techniques. We bring aboard a diverse set of researchers from social, media, and computer sciences to overcome barriers and limited framing of this interdisciplinary problem. We collect over $10,000$ unique articles from almost $60$ Czech online news sources. These are categorized into one of the $4$ classes across the credibility spectrum we propose, raging from entirely trustworthy articles all the way to the manipulative ones. We produce detailed statistics and study trends emerging throughout the set. Lastly, we fine-tune multiple popular sequence-to-sequence language models using our dataset on the trustworthiness classification task and report the best testing F-1 score of $0.52$. We open-source the dataset, annotation methodology, and annotators' instructions in full length at https://verifee.ai/research to enable easy build-up work. We believe similar methods can help prevent disinformation and educate in the realm of media literacy.
translated by 谷歌翻译
我们考虑了与视图合成的重大视点变化下的两视图匹配的问题。我们提出了两种新颖的方法,将视图合成开销最小化。第一个名为denseaffnet,使用了affnet的密集仿射形状估计值,它允许其划分图像,仅使用单个仿射图对每个分区进行整流。第二个名为Depthaffnet,结合了深度图和仿射形状估算的信息,以生成不同图像分区的不同整体构图仿射图。Denseaffnet比最先进的速度快,并且在通用场景上更准确。Depthaffnet在包含大平面的场景上与最先进的状态相提并论。评估是在3个公共数据集上执行的-EVD数据集,强烈的观点更改数据集和IMC光仪数据集。
translated by 谷歌翻译
Arthur和Vassilvitskii的著名$ K $ -MEANS ++算法[SODA 2007]是解决实践中$ K $ - 英镑问题的最流行方式。该算法非常简单:它以随机的方式均匀地对第一个中心进行采样,然后始终将每个$ K-1 $中心的中心取样与迄今为止最接近最接近中心的平方距离成比例。之后,运行了劳埃德的迭代算法。已知$ k $ -Means ++算法可以返回预期的$ \ theta(\ log K)$近似解决方案。在他们的开创性工作中,Arthur和Vassilvitskii [Soda 2007]询问了其以下\ emph {greedy}的保证:在每一步中,我们采样了$ \ ell $候选中心,而不是一个,然后选择最小化新的中心成本。这也是$ k $ -Means ++在例如中实现的方式。流行的Scikit-Learn库[Pedregosa等人; JMLR 2011]。我们为贪婪的$ k $ -Means ++提供几乎匹配的下限和上限:我们证明它是$ o(\ ell^3 \ log^3 k)$ - 近似算法。另一方面,我们证明了$ \ omega的下限(\ ell^3 \ log^3 k / \ log^2(\ ell \ log k))$。以前,只有$ \ omega(\ ell \ log k)$下限是已知的[bhattacharya,eube,r \“ ogllin,schmidt; esa 2020),并且没有已知的上限。
translated by 谷歌翻译
使用无限精度时,随机平滑是合理的。但是,我们表明,对于有限的浮点精度,随机平滑不再是声音。我们提供了一个简单的示例,即使随机平滑的$ 1.26 $在某个点附近的半径为$ 1.26 $,即使在距离中有一个对抗示例$ 0.8 $,并进一步扩展了此示例以提供CIFAR10的错误证书。我们讨论了随机平滑的隐性假设,并表明它们不适用于通常经过认证的平滑版本的通用图像分类模型。为了克服这个问题,我们提出了一种使用浮点精度的合理方法来进行随机平滑的方法,其速度基本上相等,并匹配标准的标准分类器的标准练习证书,用于迄今已测试的标准分类器。我们唯一的假设是我们可以使用公平的硬币。
translated by 谷歌翻译
最近的原型分类器(NPC)分配给每个输入点,相对于选择的距离度量,最近原型的标签。 NPC的直接优势是这些决策是可以解释的。先前的工作可以在$ \ ell_p $ -threat模型中使用相同的npcs时$ \ ell_p $ -threat模型中的最小对抗扰动提供下限。在本文中,我们在使用$ \ ell_p $ distances和$ \ ell_q $ -threat模型的认证模型时提供了有关复杂性的完整讨论,用于$ p,q \ in \ in \ {1,2,\ infty \} $。特别是,我们为使用$ \ ell_2 $ distance \ emph {eckect}计算提供了可扩展的算法计算,并在其他情况下使用$ \ ell_2 $ distance并改善了下限。使用有效的改进界限,我们将训练我们可证明的对抗性NPC(PNPC),用于MNIST,其具有比神经网络更好的$ \ ell_2 $ - 抛光保证。此外,我们符合我们的知识,第一个认证结果W.R.T.对于LPIP的感知度量标准,它被认为是图像分类的更现实的威胁模型,而不是$ \ ell_p $ -balls。我们的PNPC在CIFAR10上具有比在(Laidlaw等,2021)中报道的经验鲁棒精度更高的鲁棒精度。该代码在我们的存储库中可用。
translated by 谷歌翻译
本文展示了如何适应$ k $ -MEANS问题的几种简单和经典的基于采样的算法,以使用离群值设置。最近,Bhaskara等人。 (Neurips 2019)展示了如何将古典$ K $ -MEANS ++算法适应与异常值的设置。但是,他们的算法需要输出$ o(\ log(k)\ cdot z)$ outiers,其中$ z $是true Outliers的数量,以匹配$ o(\ log k)$ - 近似值的$ k的近似保证$ -Means ++。在本文中,我们以他们的想法为基础,并展示了如何适应几个顺序和分布式的$ k $ - 均值算法,但使用离群值来设置,但具有更强的理论保证:我们的算法输出$(1+ \ VAREPSILON)z $ OUTLIERS Z $ OUTLIERS在实现$ o(1 / \ varepsilon)$ - 近似目标函数的同时。在顺序世界中,我们通过改编Lattanzi和Sohler的最新算法来实现这一目标(ICML 2019)。在分布式设置中,我们适应了Guha等人的简单算法。 (IEEE Trans。知道和数据工程2003)以及Bahmani等人的流行$ K $ -Means $ \ | $。 (PVLDB 2012)。我们技术的理论应用是一种具有运行时间$ \ tilde {o}(nk^2/z)$的算法,假设$ k \ ll z \ ll n $。这与Omacle模型中此问题的$ \ Omega(NK^2/z)$的匹配下限相互补。
translated by 谷歌翻译